智能论文笔记

An Open-Domain QA System for e-Governance

Radu Ion , Andrei-Marius Avram , Vasile Păiş , Maria Mitrofan , Verginica Barbu Mititelu , Elena Irimia , Valentin Badea

分类：自然语言处理

2022-06-16

该论文为罗马尼亚语提供了一个开放域的答案系统，回答了Covid-19相关问题。QA系统管道涉及自动问题处理，自动查询生成，Web搜索前10个最相关的文档，并使用用于提取质量质量质量质量质量质量质量的BERT模型回答提取，并在我们手动创建的COVID-19数据集上进行了培训。该论文将介绍质量检查系统及其与罗马尼亚语言技术的集成，COVID-19数据集以及对质量检查性能的不同评估。

translated by 谷歌翻译

Distilling the Knowledge of Romanian BERTs Using Multiple Teachers

Andrei-Marius Avram , Darius Catrina , Dumitru-Clementin Cercel , Mihai Dascălu , Traian Rebedea , Vasile Păiş , Dan Tufiş

分类：自然语言处理 | 机器学习

2021-12-23

由于从大规模预先训练的语言模型的转移学习在自然语言处理中普遍存在，在计算受限环境中运行这些模型仍然是一个具有挑战性的问题。已经提出了包括知识蒸馏，网络量化或网络修剪的几种解决方案;然而，这些方法主要关注英语，从而在考虑低资源语言时扩大差距。在这项工作中，我们为罗马尼亚语推出了三种轻型和快速版本的罗马尼亚语言：Distil-Bert-Base-Ro，Distil-Robert-Base和DistilMulti-Bert-Bas-Ro。前两种模型因单独蒸馏在文献中提供的两个基础版本的罗马尼亚伯爵的知识，而最后一个是通过蒸馏它们的集合来获得的。为了我们的知识，这是第一次尝试创建公开可用的罗马尼亚蒸馏BERT模型，这是在五个任务上进行彻底评估的：语音标记，名为实体识别，情感分析，语义文本相似性和方言识别。这些基准测试的实验结果证明，我们的三种蒸馏模型在与老师的准确性方面保持最大的表现，而GPU的两倍于GPU和〜35 \％较小。此外，我们进一步测试了我们的学生和他们的老师之间的相似性，通过测量其标签和概率忠诚度以及回归忠诚度 - 在这项工作中引入的新指标。

translated by 谷歌翻译

Romanian Speech Recognition Experiments from the ROBIN Project

Andrei-Marius Avram , Vasile Păiş , Dan Tufiş

分类：自然语言处理

2021-11-23

接受社会辅助机器人的基本功能之一是其与环境中其他代理商的通信能力。在Robin项目的背景下，调查了通过与机器人的语音互动的情境对话。本文介绍了具有深度神经网络的不同语音识别实验，专注于生产快速（从网络本身的100ms延迟下），而仍然可靠的型号。即使关键所需特性之一是低延迟，最终的深度神经网络模型也能实现识别罗马尼亚语的最新状态，以获得9.91％的字错误率（WER），当与语言模型相结合，从而改善以前的结果同时提供了改进的运行时性能。此外，我们探索了两个模块，用于校正ASR输出（连字符和大写恢复和未知单词校正），针对Robin项目的目标（在封闭的微观世界中对话）。我们根据API设计模块化架构，允许整合引擎（机器人或外部）根据需要将可用模块链接在一起。最后，我们通过将其集成在相关平台中并通过上传文件或录制新的语音来测试所提出的设计。

translated by 谷歌翻译

Human-Machine Interaction Speech Corpus from the ROBIN project

Vasile Păiş , Radu Ion , Andrei-Marius Avram , Elena Irimia , Verginica Barbu Mititelu , Maria Mitrofan

分类：自然语言处理

2021-11-22

本文介绍了来自Robin项目的新罗马尼亚语音语料库，称为Robin技术获取语音语料库（Rocintasc）。其主要目的是提高会话代理的行为，允许人机互动在购买技术设备的背景下。本文包含采集过程的详细描述，语料库统计信息以及对低延迟ASR系统以及对话组件的语料库影响的评估。

translated by 谷歌翻译

A comparison of several AI techniques for authorship attribution on Romanian texts

Sanda Maria Avram , Mihai Oltean

分类：人工智能

2022-11-09

Determining the author of a text is a difficult task. Here we compare multiple AI techniques for classifying literary texts written by multiple authors by taking into account a limited number of speech parts (prepositions, adverbs, and conjunctions). We also introduce a new dataset composed of texts written in the Romanian language on which we have run the algorithms. The compared methods are Artificial Neural Networks, Support Vector Machines, Multi Expression Programming, Decision Trees with C5.0, and k-Nearest Neighbour. Numerical experiments show, first of all, that the problem is difficult, but some algorithms are able to generate decent errors on the test set.

translated by 谷歌翻译

A Novel Corpus of Discourse Structure in Humans and Computers

Babak Hemmatian , Sheridan Feucht , Rachel Avram , Alexander Wey , Muskaan Garg , Kate Spitalnic , Carsten Eickhoff , Ellie Pavlick , Bjorn Sandstede , Steven Sloman

分类：自然语言处理

2021-11-10

我们介绍了445名人员和计算机生成的文件的新型语料库，包括约27,000个条款，用于语义条款类型和相干关系，允许人工和自然话语模式的细节比较。该语料库涵盖了正式和非正式的话语，并包含使用微调GPT-2生成的文件（Zellers等，2019）和GPT-3（棕色等，2020）。我们通过提供初步证据，展示该语料库的有用性，通过提供初步证据，以提供较少，更短，更频繁的通电话条款关系与计算机生成的叙述和论点的较低质量相关。

translated by 谷歌翻译